doi: 10.17586/2226-1494-2023-23-5-989-1000


УДК 004.94

Метод построения интерпретируемых скрытых марковских моделей для задачи поиска связываемых участков пептидов в последовательностях белков

Клеверов Д.А., Шалыто А.А., Артемов М.


Читать статью полностью 
Язык статьи - русский

Ссылка для цитирования:
Клеверов Д.А., Шалыто А.А., Артемов М. Метод построения интерпретируемых скрытых марковских моделей для задачи поиска связываемых участков пептидов в последовательностях белков // Научно-технический вестник информационных технологий, механики и оптики. 2023. Т. 23, No 5. С. 989–1000. doi: 10.17586/2226-1494-2023-23-5-989-1000


Аннотация
Введение. Решение задачи предсказания иммунного ответа организма на чужеродные фрагменты белковых последовательностей, обработанные клеткой, является ключевым этапом разработки персонализированных вакцин от рака. Отбор пептидов, участвующих в иммунном ответе, представляет собой сложный многоступенчатый процесс фильтрации исходных последовательностей для презентации их фрагментов на поверхности клетки. Наиболее изученной является задача предсказания одного из этапов такой фильтрации — вероятности связывания пептидов с молекулами главного комплекса гистосовместимости. Современные методы предсказания данного этапа обычно основаны на алгоритмах, использующих искусственные нейронные сети, что не позволяет в должной мере интерпретировать результаты работы моделей. Одним из методов решения проблемы является использование интерпретируемых скрытых марковских моделей. В работе выполнен анализ задачи предсказания связывающей способности и предложен метод построения интерпретируемых моделей, учитывающих ограничения и требования предметной области. Метод. Разработан метод построения, обучения и интерпретации скрытых марковских моделей для каждого класса молекул. Построение и обучение моделей основано на поддержании архитектуры модели, способной извлекать и визуализировать связываемый участок пептида. Интерпретация возможна благодаря анализу графа модели. Основные результаты. Предложенный метод протестирован в задаче обучения модели, позволяющей помимо предсказания получать позицию связываемого участка пептида и распределение аминокислот в нем. Обучены модели предсказания для двух разновидностей молекул с использованием данных связывания. Распределения аминокислот связываемого участка совпадают с распределениями состояний модели. Паттерны последовательностей участков, извлеченные с помощью обученных моделей для двух наборов пептидных данных, соответствуют паттернам из открытых источников, что подтверждает успешную апробацию метода. Обсуждение. Интерпретируемые модели лучше описывают предметную область задачи и помогают сделать выводы о характеристиках пептидов, основываясь на информации, извлеченной из модели. Эта информация позволит исследователям лучше понять остальные шаги процессинга пептидов при иммунном ответе: изучить взаимосвязи между ними и произвести перенос знаний из моделей, обученных для одного этапа, на другие. Таким образом, предлагаемый метод построения позволит обучать модели в условиях недостатка обучающих данных.

Ключевые слова: предсказание связывающей способности, скрытые марковские модели, алгоритм Витерби, анализ данных, поиск мотива, выравнивание последовательностей

Список литературы
  1. Chen D.S., Mellman I. Oncology meets immunology: The cancer-immunity cycle // Immunity. 2013. V. 39. N 1. P. 1–10. https://doi.org/10.1016/j.immuni.2013.07.012
  2. Matsushita H., Vesely M.D., Koboldt D.C., Rickert C.G., Uppaluri R., Magrini V.J., Arthur C.D., White J.M., Chen Y.-S., Shea L.K., Hundal J., Wendl M.C., Demeter R., Wylie T., Allison J.P., Smyth M.J., Old L.J., Mardis E.R., Schreiber R.D. Cancer exome analysis reveals a T-cell-dependent mechanism of cancer immunoediting // Nature. 2012. V. 482. N 7385. P. 400–404. https://doi.org/10.1038/nature10755
  3. Corradin G. Antigen processing and presentation // Immunology Letters. 1990. V. 25. N 1–3. P. 11–13. https://doi.org/10.1016/0165-2478(90)90082-2
  4. Waldman A.D., Fritz J.M., Lenardo M.J. A guide to cancer immunotherapy: from T cell basic science to clinical practice // Nature Reviews Immunology. 2020. V. 20. N 11. P. 651–668. https://doi.org/10.1038/s41577-020-0306-5
  5. Ott P.A., Hu Z., Keskin D.B., Shukla S.A. et al. An immunogenic personal neoantigen vaccine for patients with melanoma // Nature. 2017. V. 547. N 7662. P. 217–221. https://doi.org/10.1038/nature22991
  6. Alspach E., Lussier D.M., Miceli A.P., Kizhvatov I., DuPage M., Luoma A.M., Meng W., Lichti C.F., Esaulova E., Vomund A.N., Runci D., Ward J.P., Gubin M.M., Medrano R.F.V., Arthur C.D., White J.M., Sheehan K.C.F., Chen A., Wucherpfennig K.W., Jacks T., Unanue E.R., Artyomov M.N., Schreiber R.D. MHC-II neoantigens shape tumour immunity and response to immunotherapy // Nature. 2019. V. 574. N 7780. P. 696–701. https://doi.org/10.1038/s41586-019-1671-8
  7. Reynisson B., Alvarez B., Paul S., Peters B., Nielsen M. NetMHCpan-4.1 and NetMHCIIpan-4.0: improved predictions of MHC antigen presentation by concurrent motif deconvolution and integration of MS MHC eluted ligand data // Nucleic Acids Research. 2020. V. 48. N W1. P. 449–454. https://doi.org/10.1093/nar/gkaa379
  8. O’Donnell T.J., Rubinsteyn A., Laserson U. MHCflurry 2.0: Improved pan-allele prediction of MHC class I-presented peptides by incorporating antigen processing // Cell Systems. 2020. V. 11. N 1. P. 42–48. https://doi.org/10.1016/j.cels.2020.06.010
  9. Phloyphisut P., Pornputtapong N., Sriswasdi S., Chuangsuwanich E. MHCSeqNet: a deep neural network model for universal MHC binding prediction // BMC Bioinformatics. 2019. V. 20. N 1. P. 270. https://doi.org/10.1186/s12859-019-2892-4
  10. Shao X.M., Bhattacharya R., Huang J., Sivakumar I.K.A., Tokheim C., Zheng L., Hirsch D., Kaminow B., Omdahl A., Bonsack M., Riemer A.B., Velculescu V.E., Anagnostou V., Pagel K.A., Karchin R. High-throughput prediction of MHC class I and II neoantigens with MHCnuggets // Cancer Immunology Research. 2020. V. 8. N 3. P. 396–408. https://doi.org/10.1158/2326-6066.cir-19-0464
  11. Rabiner L.R. A tutorial on hidden Markov models and selected applications in speech recognition // Proceedings of the IEEE. 1989. V. 77. N 2. P. 257–286. https://doi.org/10.1109/5.18626
  12. Ревзин Л.М., Фильченков А.А., Тулупьев А.Л. Представление многозначных линейных по структуре скрытых марковских моделей в виде алгебраических байесовских сетей // ТрудыСПИИРАН. 2012. Т. 1. № 20. С. 186–199. https://doi.org/10.15622/sp.20.10
  13. Eddy S.R. Profile hidden Markov models // Bioinformatics. 1998. V. 14. N 9. P. 755–763. https://doi.org/10.1093/bioinformatics/14.9.755
  14. Bui H.-H., Sidney J., Peters B., Sathiamurthy M., Sinichi A., Purton K.-A., Mothé B.R., Chisari F.V., Watkins D.I., Sette A. Automated generation and evaluation of specific MHC binding predictive tools: ARB matrix applications // Immunogenetics. 2005. V. 57. N 5. P. 304–314. https://doi.org/10.1007/s00251-005-0798-y
  15. Sarkizova S., Klaeger S., Le P.M., Li L.W., Oliveira G., Keshishian H., Hartigan C.R., Zhang W., Braun D.A., Ligon K.L., Bachireddy P., Zervantonakis I.K., Rosenbluth J.M., Ouspenskaia T., Law T., Justesen S., Stevens J., Lane W.J., Eisenhaure T., Zhang G.L., Clauser K.R., Hacohen N., Carr S.A., Wu C.J., Keskin D.B. A large peptidome dataset improves HLA class I epitope prediction across most of the human population // Nature Biotechnology. 2020. V. 38. N 2. P. 199–209. https://doi.org/10.1038/s41587-019-0322-9
  16. Gomez-Perosanz M., Ras-Carmona A., Reche P.A. PCPS: A web server to predict proteasomal cleavage sites // Methods in Molecular Biology. 2020. V. 2131. P. 399–406. https://doi.org/10.1007/978-1-0716-0389-5_23
  17. Schmidt J., Smith A.R., Magnin M., Racle J., Devlin J.R., Bobisse S., Cesbron J., Bonnet V., Carmona S.J., Huber F., Ciriello G., Speiser D.E., Bassani-Sternberg M., Coukos G., Baker B.M., Harari A., Gfeller D. Prediction of neo-epitope immunogenicity reveals TCR recognition determinants and provides insight into immunoediting // Cell Reports Medicine. 2021. V. 2. N 2. P. 100194. https://doi.org/10.1016/j.xcrm.2021.100194
  18. Capietto A.H., Jhunjhunwala S., Pollock S.B., Lupardus P., Wong J., Hänsch L., Cevallos J., Chestnut Y., Fernandez A., Lounsbury N., Nozawa T., Singh M., Fan Z., de la Cruz C.C., Phung Q.T., Taraborrelli L., Haley B., Lill J.R., Mellman I., Bourgon R., Delamarre L. Mutation position is an important determinant for predicting cancer neoantigens // Journal of Experimental Medicine. 2020. V. 217. N 4. P. e20190179. https://doi.org/10.1084/jem.20190179
  19. Andreatta M., Karosiene E., Rasmussen M., Stryhn A., Buus S., Nielsen M. Accurate pan-specific prediction of peptide-MHC class II binding affinity with improved binding core identification // Immunogenetics. 2015. V. 67. N 11–12. P. 641–650. https://doi.org/10.1007/s00251-015-0873-y
  20. Punt J.,Stranford S., Jones P., Owen J.A. Kuby Immunology. New York: Macmillan Education, 2019. 994 p.
  21. Dendrou C.A., Petersen J., Rossjohn J., Fugger L. HLA variation and disease // Nature Reviews Immunology. 2018. V. 18. N 5. P. 325–339. https://doi.org/10.1038/nri.2017.143
  22. Robinson J., Halliwell J.A., Hayhurst J.D., Flicek P., Parham P., Marsh S.G.E. The IPD and IMGT/HLA database: allele variant databases // Nucleic Acids Research. 2015. V. 43. N D1. P. D423–D431. https://doi.org/10.1093/nar/gku1161
  23. Тулупьев А.Л., Николенко С.И., Сироткин А.В. Основы теории байесовских сетей. СПб.: Изд-воС.-Петерб. ун-та, 2019. P. 399.
  24. Ng S.K., Krishnan T., McLachlan G.J. The EM algorithm // Handbook of Computational Statistics. 2012. P. 139–172. https://doi.org/10.1007/978-3-642-21551-3_6
  25. Forney G.D. The viterbi algorithm // Proceedings of the IEEE. 1973. V. 61. N 3. P. 268–278. https://doi.org/10.1109/proc.1973.9030
  26. Tareen A., Kinney J.B. Logomaker: beautiful sequence logos in Python // Bioinformatics. 2020. V. 36. N 7. P. 2272–2274. https://doi.org/10.1093/bioinformatics/btz921
  27. Vita R., Mahajan S., Overton J.A., Dhanda S.K., Martini S., Cantrell J.R., Wheeler D.K., Sette A., Peters B.  The immune epitope database (IEDB): 2018 update // Nucleic Acids Research. 2019. V. 47. N D1. P. D339–D343. https://doi.org/10.1093/nar/gky1006
  28. Rapin N., Hoof I., Lund O., Nielsen M. MHC motif viewer // Immunogenetics. 2008. V. 60. N 12. P. 759–765. https://doi.org/10.1007/s00251-008-0330-2
  29. Berman H.M. The protein data bank // Nucleic Acids Research. 2000. V. 28. N 1. P. 235–242. https://doi.org/10.1093/nar/28.1.235
  30. Andreatta M., Lund O., Nielsen M. Simultaneous alignment and clustering of peptide data using a Gibbs sampling approach // Bioinformatics. 2013. V. 29. N 1. P. 8–14. https://doi.org/10.1093/bioinformatics/bts621
  31. van Balen P., Kester M.G.D., de Klerk W., Crivello P., Arrieta-Bolaños E., de Ru A.H., Jedema I., Mohammed Y., Heemskerk M.H.M., Fleischhauer K., van Veelen P.A., Falkenburg J.H.F. Immunopeptidome analysis of HLA-DPB1 allelic variants reveals new functional hierarchies // The Journal of Immunology. 2020. V. 204. N 12. P. 3273–3282. https://doi.org/10.4049/jimmunol.2000192
  32. Koşaloğlu-Yalçın Z., Sidney J., Chronister W., Peters B., Sette A. Comparison of HLA ligand elution data and binding predictions reveals varying prediction performance for the multiple motifs recognized by HLA‐DQ2.5 // Immunology. 2021. V. 162. N 2. P. 235–247. https://doi.org/10.1111/imm.13279
  33. Kawashima S., Kanehisa M. AAindex: Amino Acid index database // Nucleic Acids Research. 2000. V. 28. N 1. P. 374–374. https://doi.org/10.1093/nar/28.1.374


Creative Commons License

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License
Информация 2001-2024 ©
Научно-технический вестник информационных технологий, механики и оптики.
Все права защищены.

Яндекс.Метрика